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摘 Xu. 针对 传统 的 聚 类 算法 只 能 处 理 单 属 性 的 数据 ， 不 能 很 好 地 处 理 混合 属性 数据 的 聚 类 问题 ， 以 及 目前 大 多 数 混 
合 属性 数据 聚 类 算法 对 初始 化 敏感 、 不 能 处 理 任意 形状 的 数据 的 问题 ， 提 出 一 种 基于 信息 粒 的 混合 属性 数据 谱 聚 类 算 
法 ， 用 于 处 理 混 合 类 型 数据 。 首 先 ， 提 出 了 一 种 新 的 相似 性 度量 方式 ， 利 用 谱 ee 
函数 矩阵 与 新 的 基于 信息 粒 的 分 类 型 数据 构成 的 影响 因子 矩阵 相 结合 代替 了 传统 的 相似 度 矩 阵 ， 新 的 相似 度 和 矩阵 避 

了 数值 属性 与 分 类 属性 数据 之 间 的 转换 和 参数 调整 ; 然后 ， 把 新 的 相似 度 和 矩阵 运用 到 谱 聚 类 算法 中 ， 以 便于 处 理 任意 
形状 的 数据 , 最 终 得 出 聚 类 结果 。 通 过 在 UCI 的 数据 集 上 的 实验 表明 , 该 算法 能 有 效 地 处 理 混合 属性 数据 的 聚 类 问题 ， 
且 具 有 较 高 的 稳定 性 以 及 良好 的 鲁 棒 性 。 

Xu): 混合 属性 数据 ; 谱 聚 类 ; 高 斯 核 函 数 ; 影响 因子 
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Abstract: Aiming at the problem that the traditional clustering algorithm can only deal with single attribute data and can’t 
handle the clustering problem of mixed type data very well. Most of the clustering algorithms for mixed type data currently have 
the problem of initializing sensitive and can’t handle the data of arbitrary shape. This paper proposed an entropy-based spectral 
clustering algorithm for mixed type data to deal with mixed type data. First, it proposed a new similarity measure. It used the 
numerical data in the spectral clustering algorithm constitutes a Gaussian kernel function of the matrix, and used the 
classification data constitutes an entropy-based the influence factor of the matrix. A new similarity matrix combines these two 
matrices. Instead of the traditional similarity matrix, it proposed the new similarity matrix avoid feature transformation and 
parameter adjustment between the numerical data and the classification data. Then, it applied the new similarity matrix to the 
spectral clustering algorithm so as to deal with the data of arbitrary shape, and finally got the clustering result. Experiments on 
UCI data sets show that this algorithm can effectively deal with the clustering problem of mixed attribute data, with high stability 
and good robustness. 
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性 的 数据 , 如 K-means^, RDBSCAN PI, CSSA-OIKIGI, 


E 基于 竞争 思想 的 分 级 聚 类 [等 算法 只 针对 处 理 数值 型 数据 ， 
聚 类 分 析 的 目的 是 在 数据 集 的 子 集 之 间 寻 找 相 关 性 ， 并 评 — K-modes 9, COOLCAT P!, MuR sem 

估 这 些 子 集中 的 元 素 之 间 的 相似 性 03。 聚 类 在 包括 生物 学 、 经 数据。 在 处 理 混合 属性 数据 时 ， 上 述 的 算法 都 得 不 到 期 望 的 聚 

济 学 和 医学 在 内 的 各 个 领域 都 有 很 多 应 用 。 它 的 应 用 包括 数据 ” ”类 效果 [111。 

挖掘、 文档 检索 、 图像 分 割 和 模式 识别 申 。 传统 的 聚 类 方法 只 能 处 理 混 合 类 型 数据 的 一 种 直接 处 理 方式 是 将 分 类 属性 
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为 新 的 形式 ， 如 二 进 制 字符 串 ， 然 后 应 用 到 前 面 提 到 的 基于 数 
值 属性 的 聚 类 算法 中 。 但 是 二 进 制 编码 有 三 个 缺点 : 首先， 这 
种 方法 破坏 了 分 类 属性 的 原始 结构 。 为 了 避免 分 类 属性 之 间 的 
参数 调整 ，Li 等 人 0 提出 了 一 个 基于 混合 数据 相似 度 度量 的 
SBAC 算法 。 其 次 ， 如 果 分 类 属性 的 定义 域 很 大 ， 那 么 转换 后 
的 三 进 制 就 会 有 更 大 的 维度 。 最 后 ， 维 护 的 难度 。 如 果 将 属性 
值 添加 到 分 类 属性 中 ， 那 么 所 有 对 象 将 被 更 改 。 为 了 更 好 地 解 
决 这 个 问题 ， 许 多 研究 人 员 在 过 去 十 几 年 里 ， 基 于 相似 度 指标 
直接 研究 了 分 类 属性 。 一 些 方法 基于 相似 度 的 度量 指标 考虑 了 
数值 属性 和 分 类 属性 ， 如 K-prototypes 1 站。 然而 考虑 到 数据 在 
簇 归属 上 的 不 确定 性 ，Chatzis 等 人 09 提出 了 KL-FCM-GM 算 
法 来 扩展 K-prototypes 算法 ，KL-FCM-GM 算法 是 假设 簇 中 的 
数据 符合 高 斯 分 布 。 还 有 一 些 是 基于 无 参数 的 相似 度 度量 的 方 
法 ， 如 OCIL 65. 但 是 这 种 度量 方式 只 能 度量 一 个 对 象 与 一 个 簇 
之 间 的 相似 性 。 就 像 K-prototypes 算法 一 样 ,OCIL fiif] K-means 
的 形式 来 对 混合 类 型 数据 进行 聚 类 ， 是 一 种 迭代 的 聚 类 算法 。 
因此 ， 这 种 算法 对 初始 化 很 敏感 ， 适 用 于 球面 分 布 的 数据 61。 
针对 传统 的 聚 类 算法 只 能 处 理 单 属性 的 数据 ， 不 能 很 好 地 
处 理 混合 属性 数据 的 聚 类 问题 ， 以 及 目前 大 多 数 混 合 属性 数据 
聚 类 算法 对 初始 化 敏感 、 不 能 处 理 任意 形状 的 数据 的 问题 ， 本 
文 提出 了 一 种 基于 信息 粒 的 混合 属性 数据 谱 聚 类 (EBSCMD) 算 
法 。 该 算法 利用 谱 聚 类 算法 中 的 数值 型 数据 构成 的 高 斯 核 函 数 
矩阵 与 新 的 基于 信息 焙 的 分 类 型 数据 构成 的 影响 因子 矩阵 相 结 
合 代 蔡 了 传统 的 相似 度 矩 阵 ， 避 免 了 数值 属性 和 分 类 属性 数据 
之 间 的 转换 和 参数 调整 ， 再 把 新 的 相似 度 和 矩阵 运用 到 谱 聚 类 算 
法 中 处 理 任意 形状 的 数据 ， 最 终 得 出 聚 类 结果 。 为 了 验证 
EBSCMD 算法 的 可 行 性 以 及 有 效 性 ， 本 文 利 用 一 些 UCI 数据 
集 进 行 了 一 些 实验 ,并 与 其 他 算法 进行 了 比较 ,实验 结果 表明 ， 
EBSCMD 算法 能 有 效 地 处 理 混合 属性 数据 的 聚 类 问题 , 上 且 具 有 
较 高 的 稳定 性 及 鲁 棒 性 。 


1 ” 谱 聚 类 算法 及 其 相关 定义 


谱 聚 类 算法 是 一 种 基于 谱 图 理论 的 聚 类 算法 ， 
聚 类 问题 转换 为 图 的 最 优 划 分 问题 
谱 聚 类 算法 具有 能 在 任意 形状 的 样本 空间 上 聚 类 且 收 敛 于 全 局 
最 优 解 的 优点 。 其 主要 思想 是 把 所 有 的 数据 对 象 看 做 空间 中 的 
点 ， 这 些 点 之 间 可 以 用 边 连接 起 来 。 距 离 较 远 的 两 点 之 间 的 边 
权重 值 较 低 ， 而 距离 较 近 的 两 点 之 间 的 边 权重 值 较 高 。 通 过 对 
所 有 数据 点 组 成 的 图 进行 切 图 ， 让 切 图 后 不 同 的 子 图 间 的 边 权 
重 和 尽 可 能 的 低 ， 而 子 图 内 的 边 权 重 和 尽 可 能 的 高 ， 从 而 达到 
聚 类 的 目的 。 在 构造 适当 的 图 基础 上 ， 将 原来 的 聚 类 问题 转换 
为 图 论 中 的 子 图 最 优 划分 问题 [9 。 
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其 本 质 是 将 


谱 到 类 算法 一 般 分 为 三 步 9， 


a) 根 据 数据 之 间 的 相似 度 建立 相似 度 矩 阵 ; 


Gr 
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b) 求 相似 度 矩 阵 最 小 的 k 个 特征 值 对 应 的 特征 


构 


1?。 与 传统 的 聚 类 算法 相 比 ， 


成 新 的 特征 向 量 


+ H 
HN o 


算法 中 相关 
定义 1 


和 边 的 集合 工 来 描述 , B 
ew). XF V Y 


有 的 点 (v1, v 


定义 如 下 : 


无 向 权重 图 。 对 于 一 个 图 
UJ G(VD)。 其 中 人 V 即 为 数据 集 里 面 所 
的 任意 两 点 ， 可 以 


可 以 没有 边 连 接 
是 无 向 图 ， 所 以 


定义 2 EER D., XF 


c) 使 用 K-means 算法 对 这 个 新 的 向 量 空间 聚 类 , 输出 聚 


般 用 


G, 


PAER, 也 


。 定 义 权重 Wij 为 点 1 与 点 久之 间 的 权重 。 由 于 


Wij — Wiic 


T2 YE PER 


j^ vifio, wij0, 


对 于 没有 边 连接 的 两 个 点 w 和 vi, wj=0。 对 于 图 的 任意 一 个 点 vi， 


C RE BE d, 定义 为 它 相连 的 所 有 边 的 权重 之 和 ， 即 


利用 每 个 点 度 的 定义 ,本 文 可 以 得 到 一 个 zx 的 度 和 矩阵 刀 。 
CESARE, 对 应 第 i 行 的 第 i 个 点 的 度数 , 定义 如 下 : 


d, 0 0 
0 
D-|. 
: 0 
全 d, 
定义 3 ”邻接 矩阵 W. AHP 


Q) 


点 之 间 的 权重 值 ， 可 以 得 


到 图 的 邻接 矩阵 丈 。 它 也 是 一 个 xz 的 矩阵 ， 第 i 行 的 第 j 个 
这 里 定义 邻接 矩阵 的 方法 是 全 连接 法 ， 此 方法 


值 对 应 权重 wiy o 


的 相似 矩阵 与 邻接 外 


of zx 
maena 


定义 4 拉 普 拉 斯 矩阵 区 。 拉 普 拉 斯 矩阵 是 对 称 和 矩阵 ， 
D 和 W HIRIE EIAI, 


定义 5 dH 


BU L-D-W. 


以 矩阵 S. 


E 阵 相同 。wi 计 算 采 用 高 斯 核 函 数 ， 即 


G) 


样本 点 距离 度量 组 成 的 矩阵 。 


对 于 数值 型 数据 ， 一 般 利用 欧 氏 距离 作为 数据 之 间 的 相似 


性 度量 ， 然 后 利 


值 ， 构 建 出 一 个 关于 数值 型 数 所 
法 处 理 能 很 好 地 解决 数值 型 数据 聚 类 问题 ， 


高 斯 核 函 数 把 其 转换 为 无 向 加 权 图 边 上 的 权 
昌 的 高 斯 核 函 数 和 矩阵 。 


j 这 种 方 
能 取得 全 局 最 优 


解 。 对 于 分 类 型 数据 ， 若 利用 欧 氏 距离 表示 混合 数据 之 间 的 相 
似 性 度量 ， 把 分 类 型 数据 转换 为 数字 ， 然 后 计算 欧 氏 距离 。 显 


然 不 能 ; 


EEG sc IURI 


昌 的 内 在 联系 ， 


所 以 利用 谱 聚 类 算法 解决 混 


合 数据 聚 类 问题 的 关键 在 于 为 混合 数据 定义 一 个 合适 的 相似 性 


度量 ， 


为 之 选择 合适 的 村 


HINRERE RE 


2 TERESARI RKE A 


本 文 提出 了 


一 个 新 的 相似 性 度量 作为 一 个 统一 的 框架 用 于 


处 理 包 含 数 值 型 数据 和 分 类 型 数据 的 混合 型 数据 。 为 了 更 好 地 


对 任意 形状 的 数据 进行 聚 类 ， 


将 新 的 相似 性 度量 方式 引入 到 谱 
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聚 类 算法 中 。 同 时 ， 为 了 更 好 地 适应 谱 聚 类 算法 的 算法 流程 ， 


本 文 构建 了 一 个 新 的 分 类 型 数据 的 相似 度 矩 阵 与 高 斯 核 函 数 矩 


阵 相 融合 运用 到 谱 聚 类 算法 中 。 
2.1 相似 性 度量 矩阵 


关于 混合 属性 数据 的 相关 公式 符号 描述 如 下 : 


X 2 (x,x,,77sx,] GR N 个 混合 数据 对 象 的 数据 集 ， 


对 于 每 一 


(c) 一 
df xy A 


0,if x9 +x 


(6) 


s (19x9) = n 

这 种 定义 分 类 型 数据 的 相似 性 度量 是 假设 每 个 分 类 属性 的 
权重 是 相同 的 。 然 而 在 实践 中 每 个 分 类 属性 在 分 类 型 数据 部 分 
对 相似 度 的 计算 有 不 同 的 贡献 ， 其 中 一 个 主要 的 原因 是 不 同 的 


明 性 有 不 同 的 分 布 。 因 此 公式 可 以 进一步 修改 ， 如 下 所 示 


" 


^ x,, ie[.N], ， 混 合 型 数据 集 x, 代表 M( M=M,+M. ) 个 属性 
AP, Aes Ap , Apu Ajay, CHE AP, AP, Aj 代表 MM 个 


数值 型 数据 ，4 ,4 生 ,4 代表 .个 分 类 型 数据 。 


xi" 的 第 个 属性 ， 


xi" 表示 数值 部 分 。 


个 属性 ， x 表示 分 类 部 分 


x 代表 


x 代表 x 的 第 k 


. DOM(A) (1<k<M,) 表示 x 


的 定义 域 。 这 个 分 类 属性 的 定义 域 表 示 为 DOM (4) = 


au)» nn 表示 第 k 列 分 类 属性 的 数量 。 


[UN E 


A 


量 | xz， xp ]- 


与 传统 的 相似 性 测量 方法 
数据 时 ， 本 文 需要 构建 一 个 关于 混合 属 
和 矩阵， 这 个 相似 性 
FE 和 分 类 型 数据 的 相似 度 算 
2.1.1 数值 型 数据 的 相似 度 算 阵 


i,M,4* 


[ma 


x?, xps x? (c) Hean 
E Xim, Xi map 


同时 ， x; 


不 同 ， 在 用 谱 案 类 算法 处 理 混合 
要 性 数据 的 相似 性 度 
度量 矩阵 需要 融合 数值 型 数据 的 相似 度 矩 


对 于 数值 型 数据 ， 本 文采 用 谱 聚 ; 


XE X, xi^ Ej xp Zr [RI AAE 


"T Ix? - x? Ib 
S, (xi hx) zl 2o 
Rep. 0 是 一 个 可 调节 的 参数 。 


算法 中 的 高 斯 核 核 函数 


度量 为 5, (xx), ARTT: 


(4) 


谱 聚 类 算法 利用 高 斯 核 函 数 把 数据 点 之 间 的 相似 性 度量 转 


换 为 无 向 加 权 图 边 上 的 权 值 ， 构 建 出 一 个 关于 数值 型 数据 的 高 
斯 核 函 数 矩 阵 W, 
0 x5 x» 
wes " (5) 
uoo 0 
W j& —^ nxn (n=N) 的 矩阵 ， 对 角 线 上 的 元 素 全 是 0， 


代表 x? 与 六 之 间 的 相似 性 度量 S, (xm xt). 


2.1.2 分 类 型 数据 的 相似 度 答 阵 


Tib. AROCGEOX x; 与 zx 之 间 的 相似 性 度 上 


中 


M. 
© yO (xO LO 
Se (xi. xa) = 2m S Qe) 0) 


k=l 


这 里 


M, 
0sw, «1, 3 w, c1, AR 2E RAE AO 的 权重 ， 
k=l 


它 代 表 了 对 分 类 属性 部 分 重要 性 的 计算 。 

然后 ， 讨 论 如 何 计算 每 个 分 类 属性 AD 的 权重 w 。 本 文 把 
信息 炉 的 概念 应 用 到 权重 的 计算 上 。 数 据 集中 分 类 型 数据 的 不 
均匀 性 越 大 ， 分 类 型 数据 的 信息 精 就 越 大 。 另 外 ， 数 据 集中 的 
分 类 属性 的 不 均匀 性 与 分 类 属性 的 重要 性 相对 应 。 因 此 ， 根 据 


信息 炉 公 式 可 以 计算 分 类 属性 48 ，DOM (AD) = 
farotan} ， 定 义 如 下 : 
ser EQ, m 


N ' 
(c) 
as Ge ， a) ;分 


p(a;)7 N 
TER A 中 的 分 类 属性 值 与 4, 相等 的 个 数 ;，N 是 数据 集中 的 
对 象 总 数 。 观察 式 (8) 可 以 注意 到 , 如 果 AD 中 值 的 数量 n, dE 


p(a,.) 是 属性 


这 里 值 a 的 概率 ; 


CK. 382 2:3 P0 EN Hp 也 会 很 高 。 这 与 实际 情况 是 


不 一 样 的 ,为 了 降低 太 多 不 同 值 甚至 唯一 值 对 分 类 属性 的 影响 ， 


本 文 重新 定义 了 分 类 属性 的 信息 粹 Ha : 
He = plas tog; (p(a,,)) (9) 


因此 ， 可 以 量化 分 类 属性 


AC 的 重要 性 为 


H» 


A® 


Fn AP 


将 式 C100 带 入 到 式 (7) 中 ， 
BERE S (xx). ARAT: 


S. (x; x9, xp)= 23 Hy 


H yz, 0282) 

最 后 ,为 了 更 好 地 适应 谱 聚 类 算法 的 算法 流程 ， 需要 构建 
一 个 分 类 型 数据 的 相似 度 和 矩阵 ， 本 文 称 之 影响 因子 和 矩阵， 形 
式 如 下 : 


(10) 


最 终 得 到 分 类 属性 的 相似 性 
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0 e xi dis x9 
F2 : o xy ue. Ux (12) 
xQ x 0 


显然 ,同样 是 一 个 nxn (nN) 的 矩阵 ， 对 角 线 上 的 元 
KAEO, xp AR O 与 次 之 间 的 相似 性 度量 S, (xx?) 。 


2.1.3 混合 型 数据 的 相似 度 生 阵 

从 上 面 的 内 容 可 以 很 容易 地 发 现 数值 型 数据 的 相似 性 度量 
方法 是 通过 高 斯 核 函 数 把 数值 型 数据 点 之 间 的 相似 性 度量 转换 
为 无 向 加 权 图 边 上 的 权 值 ， 构 建 出 一 个 高 斯 核 函数 矩阵 We df 
对 于 分 类 型 数据 来 说 ， 分 类 型 数据 的 相似 性 度量 方法 则 是 利用 


输入 : 混合 型 数据 中 的 数值 型 数据 和 分 类 型 数据 两 个 数据 
集 ， 聚 类 个 数 k。 


输出 : 被 标记 聚 类 类 别 的 n 个 样本 ， 即 C=(6,6,…,6,)。 


a) 对 输入 的 数值 型 数据 进行 标准 化 处 理 ， 构 建 数值 型 数据 
的 高 斯 核 函数 和 矩阵 Wo 


b) 对 输入 的 分 类 型 数据 利用 信息 灶 公式 计算 每 个 分 类 属 
性 的 权重 ， 构 建 分 类 型 数据 的 影响 因子 矩阵 Fo iA EROR 
阵 W 与 影响 因子 矩阵 五 点 乘 得 到 混合 数据 的 相似 度 和 矩阵 So 


c) 根 据 相似 度 和 矩阵 5S 得 到 度 和 矩阵 D, 构建 拉 普 拉 斯 矩阵 也 


了 信息 灼 概念 计算 每 个 分 类 属性 的 权重 ， 然 后 利用 计算 出 来 
的 权重 把 分 类 型 数据 点 之 间 的 相似 性 度量 乘 以 对 应 权重 求 和 ， 
构建 了 一 个 影响 因子 和 矩阵 F. 

对 于 分 类 属性 ， 本 文 在 建立 相似 性 度量 矩阵 时 ， 虽 然 每 个 
分 类 属性 在 分 类 型 数据 部 分 对 相似 度 的 计算 有 不 同 的 贡献 ， 但 
是 对 分 类 属性 的 利用 信息 炉 进 行 了 处 理 ， 则 可 以 认为 当 分 类 型 
数据 点 之 间 相 同 的 个 数 越 多 时 ， 数 据 间 相 似 性 越 大 ， 分 类 属性 
相同 的 个 数 越 少时 ， 数 据 相 似 性 越 小 。 所 以 本 文 的 混合 型 数据 
的 相似 度 矩 阵 S 用 高 斯 核 函 数 和 矩阵 W 和 影响 因子 矩阵 点 乘 
得 到 ， 公 式 如 下 : 


S(L1) - S(Ln) 


"ETE TON 
S(i,j) E (13) 
S (n,1) - S(nn) 
22 算法 实现 

2.2. EBSCMD 算法 的 实现 流程 


EBSCMD 算法 流程 如 图 1 所 示 。 


( ”开始 ) 
SD = P 


设置 聚 类 数目 、 高 斯 核 函 数 
参数 o 。 输 入 数值 型 数据 和 
分 类 型 数据 两 个 数据 集 


按 2.1 节 构建 数值 型 数据 的 高 斯 核 函数 
拖 阵 W、 分 类 型 数据 的 影响 因子 矩阵 F 
以 及 混合 数据 的 相似 度 矩 阵 S 


按 公 式 (14) Fede DR 
阵 L， 并 按 公 式 (15〉 标 准 化 拉 
普 拉 斯 矩阵 


计算 标准 化 的 拉 普 拉 斯 矩阵 
的 最 小 的 k 个 特征 值 所 对 应 的 
特征 向 量 ， 组 成 特征 矩阵 M 
用 k-means 对 特征 
和 矩阵 M 进 行 聚 类 


得 到 被 标记 的 n 
个 样本 


rS -- 


AGRO) 


SS 


图 1 EBSCMD 算法 流程 
按 EBSCMD 算法 过 程 描述 如 下 : 


公式 如 下 : 


L-D-S (14) 
标准 化 拉 普 拉 斯 矩阵 得 到 元, 公式 如 下 : 


工 = D}? LD"? (1 5) 


Hop: BEERE D HAR d=) Sij) 


gj) 计算 标准 化 的 拉 普 拉 斯 矩阵 工 的 最 小 的 个 特征 值 所 
对 应 的 特征 向 量 ， 并 对 不 个 特征 向 量 组 成 的 矩阵 进行 标准 化 处 
BB, 最终 组 成 nxk 维 的 特征 矩阵 M. 在 实验 过 程 中 , 为 了 能 够 
快速 地 找 出 最 优 解 ， 参 数 k 的 选取 基本 等 于 聚 类 个 数 k 或 稍 大 
Tk. 


ARMEE RE M 使 用 
聚 类 类 别 的 n 个 样本 。 


k-means 算法 进行 最 终 得 出 被 标记 


2.2.2 计算 复杂 度 分 析 

本 文 算法 第 1 步 计 算数 值 型 数据 的 高 斯 核 函 数 矩 阵 到 ,时 
间 复 杂 度 为 O(mn?) ， 其 中 n 为 样本 数目 ，m 表示 数值 属性 维 
数 ; 第 2 步 计算 分 类 型 数据 的 影响 因子 矩阵 和 构建 相似 度 矩 
BES, WRZE O (2e) -o(w*) -O(2n) ,其 中 n 为 样本 数 
c 表示 分 类 属性 维 数 ， 第 3 和 4 步 对 相似 度 矩 阵 8 进行 特 
征 分 解 ， 时 间 复 杂 度 为 O (m) ;第 5 步 对 特征 矩阵 M 进行 k- 
means 聚 类 ,时 间 复 杂 度 为 O(n) ,其 中 表示 聚 类 数目 , t 表 
示 k-means 移 代 次 数 。 所 以 本 算法 的 时 间 复杂 度 为 
O(n)+0(Qectm+tDmwr) + O((kt+2)n) 。 本 文 算法 和 传统 的 谱 聚 
类 算法 在 时 间 复 杂 度 上 基本 处 于 同一 个 级 别 。 


3 ”实验 分 析 


为 了 研究 EBSCMD 算法 的 有 效 性 ,本文 将 其 应 用 于 UCI 机 
器 学 习 知识 库 中 的 混合 数据 集 。 实 验 中 的 操作 系统 为 Windows 
10, 集成 开发 环境 为 Python 3。 硬 件 条 件 为 CPU 为 Intel Core i7 
2.8 GHz， 内 存 为 8 GB。 


3.1 实验 结果 分 析 
本 节 主 要 对 EBSCMD 算法 进行 对 比 实验 与 分 析 。 从 UCI 
机 器 学 习 知识 库 中 选取 了 四 个 混合 类 型 数据 集 ， 并 与 其 他 三 个 


Tr 


| = s NA AN lA 
IInaA IV 11 


录用 稿 姜 智 涵 ， 等 : 一 种 基于 信息 靖 的 混合 局 性 环 拓 详 区 网 昌 : 
经 典 算法 进行 了 比较 ， 验 证 本 算法 的 可 行 性 和 有 效 性 。 Para k-2, y-02 
为 了 验证 EBSCMD 算法 的 有 效 性 ， 实 验 中 使 用 了 从 UCI 
机 器 学 习 知 识 库 中 获取 的 四 个 混合 类 型 的 数据 集 : Heart, Credit Tor ic MUS 
Approval . Australian Credit Approval, Bank Marketing。 这 些 数 sa Vis 
据 集 的 详细 信息 由 表 1 列 出 。 表 1 中 列举 了 四 个 数据 集 的 聚 类 pts id prd 
个 数 、 维 度 ( 即 数值 属性 个 数 加 上 分 类 属性 个 数 )、 和 数据 集中 iid DH 
的 对 象 个 数 。 从 表 3 可 以 看 出 , 算法 K-Prototypes、OCIL、 KL-FCM-GM 
表 1 混合 类 型 数据 集 的 详细 信息 在 Credit Approval 数据 集 上 的 聚 类 准确 率 的 均值 分 别 为 0.801 
Data set Cluster Dimension (™, +m. ) N 7. 0.6634 和 0.591 4; 而 EBSCMD 算法 在 c=13.0 IE RAME 
Heart 2 6+7 270 3&73 0.8254, tE K-Prototypes, OCIL, KL-FCM-GM 算法 聚 类 
Credit Approval 2 6+9 653 准确 率 分 别 高 出 了 2.37%, 16.2%, 23.4%, Klk EBSCMD 算 
Australian Credit Approval 2 6+8 690 法 性 能 更 好 。 
Bank Marketing 2 7+9 4521 表 3 Credit Approval 数据 集 上 的 实验 结果 
在 这 四 个 混合 类 型 数据 集 的 基础 上 , 分 别 用 EBSCMD、K- 
Prototypes、OCIL、KL-FCM-GM 算法 对 以 上 数据 集 进 行 了 聚 类 Dataset Credit Approval 
实验 。 同 时 ， 本 文 使 用 聚 类 精度 CACCO 来 度量 聚 类 结果 的 准 BBSCMD ACC 0:8254 
确 度 。 对 于 N 个 不 同 的 样本 ， 了 =(3%,y…,y) 表示 真正 的 类 别 m" bus di 
标签 ， C ={6063 0 ) 表示 本 文 预测 的 聚 类 标签 。 ACC 的 计算 K-Prototypes ACC 0.8017 + 0.0122 
公式 为 Para k=2, y=0.1 
N OCIL ACC 0.6634 + 0.0407 
ACC - 2,0 o, mape))/N (17) jus ww 
这 里 map0 是 通过 匈牙利 算法 将 每 一 个 聚 类 标签 映射 到 一 KPOM. AGE SERRE DAT 
个 类 别 标签 ， 这 个 映射 是 最 优 的 ， 如 果 y,—map(c,) W Para 0 
c (y, map(c;)) 就 等 于 1 或 者 0。 此 外 , N 是 数据 集中 的 对 象 个 从 表 4 可 以 看 出 , 算法 K-Prototypes、OCIL、 KL-FCM-GM 
在 Australian Credit Approval 数据 集 上 的 聚 类 准确 率 的 均值 分 
数 ，ACC 值 越 高 ， 聚 类 的 性 能 就 越 好 。 别 为 0.795 5. 0.666 8 和 0.831 9; 而 EBSCMD 算法 在 c = 13.5 
EBSCMD 算法 在 实验 中 式 (中 的 参数 5 的 变化 是 ”时 聚 类 准确 率 为 0.8319， 比 区 Prototypes、OCIL、KL-FCM_GM 


1.0~15.0， 参 数值 每 次 增加 0.5 来 寻找 最 优 的 聚 类 效果 。 K- 算法 聚 类 准确 率 分 别 高 出 了 3.64%、16.51%、0.00%， 因 此 
Prototypes 算法 中 的 参数 y 的 变化 是 0.1~2.1， 每 次 增加 0.1; 好 。 

KL-FCM-GM 算法 中 的 参数 入 的 变化 同样 是 0.1~2.1, 每 次 增加 
0.1。 在 表 2 中 本 文 列 举 出 来 了 EBSCMD, K-Prototypes, OCIL, 


zi 


EBSCMD 算法 性 能 更 


表 4 Australian Credit Approval 数据 集 上 的 实验 结果 


KL-FCM-GM 算法 四 种 算法 的 聚 类 精 度 o Data set Australian Credit Approval 
EBSCMD, K-Prototypes, OCIL fll KL-FCM-GM 算法 在 四 EBSCMD ACC 0.8319 
个 UCI 数据 集 上 的 参数 选择 及 聚 类 准确 率 分 别 在 表 2-5 中 列 Para k-2, o=13.5 
np K-Prototypes ACC 0.7955 + 0.0180 
从 表 2 可 以 看 出 , 算法 K-Prototypes, OCIL. KL-FCM-GM Para k-2, y=1.0 
在 Heart 数据 集 上 的 聚 类 准确 率 的 均值 分 别 为 0.783 0, 0.741 1 OCIL ACC 0.6668 + 0.0382 
和 0.792 6; 而 EBSCMD 算法 在 o= 2.0 时 聚 类 准确 率 为 0.833 Para k-2 
3, HE K-Prototypes, OCIL. KL-FCM-GM 算法 聚 类 准确 率 分 别 KL-FCM-GM ACC 0.8319 + 0 
高 出 了 5.03%, 9.22%, 4.07%, 因此 EBSCMD 算法 性 能 更 好 。 para k=2, A=1.5 
表 2 Heart 数据 集 上 的 实验 结果 、 
从 表 5 可 以 看 出 , 算法 K-Prototypes, OCIL, KL-FCM-GM 
Data set Heart 
在 Bank Marketing 数据 集 上 的 聚 类 准确 率 的 均值 分 别 为 0.613 
EBSCMD ACC 0.8333 mM 
4. 0.624 5 和 0.540 0; 而 EBSCMD 算法 在 o = 2.0 时 聚 类 准确 
Para k=2, o=2.0 
率 为 0.6350， 比 K-Prototypes、OCIL、 KL-FCM-GM 算法 聚 类 
K-Prototypes ACC 0.7830 土 0.0445 M i 
准确 率 分 别 低 了 2.1696. 1.05%, 9.50%, EE EBSCMD 算法 性 
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能 更 好 。 
表 5 Bank Marketing 数据 集 上 的 实验 结果 
Data set Bank Marketing 
EBSCMD ACC 0.6350 
Para k=2, o=2.0 
K-Prototypes ACC 0.6134 + 0.0817 
Para k=2, y=0.2 
OCIL ACC 0.6245 + 0.0372 
Para k=2 
KL-FCM-GM ACC 0.5400 + 0.0133 
Para k=2, A=0.3 
1 
0.8 
0.6 | 
0.4 | 
0.2 | 
0 
Heart Credit Australian Bank 
Approval Credit Marketing 
Approval 


m EBSCMD mK-Prototypes 


网 


RREME. | 


OCIL = KL-FCM-GM 


图 2 EBSCMD 与 其 他 算法 对 比 


图 2 汇总 了 本 文 算 法 和 对 比 算法 在 四 个 UCI 数据 集 上 的 
2 可 以 看 出 ， 在 所 选取 混合 类 型 数据 集 上 


EBSCMD 算法 的 聚 类 准确 率 是 这 四 种 算法 中 较 高 的 ， 证 明了 


EBSCMD 算法 的 有 效 性 , 显示 出 本 文 算法 在 处 理 混合 属性 数据 


时 的 可 行 性 。 
EBSCMD 


EBSCMD 算法 


LA geli 
FRF fes SORS E is P RE ETT RETE, 


4 聚 类 效果 的 原因 在 于 : 


与 利用 高 斯 核 函数 计算 数值 型 数据 的 相似 度 的 方法 相 结合 ， 避 
免 了 分 类 型 数据 和 数值 型 数据 的 特征 转换 和 参数 调整 。 这 种 相 


似 性 度量 方式 应 用 简单 ， 且 具有 广泛 


的 覆盖 性 ,并且 EBSCMD 


算法 在 参数 固定 后 运行 稳定 且 不 具有 
有 较 高 的 稳定 性 以 及 良好 的 鲁 棒 性 。 


3.2 ”算法 执行 时 间 


随机 性 ， 表 明 本 文 算法 具 


H 


d 6 列 出 了 EBSCMD 算法 在 四 个 UCI 数据 集 上 的 平均 执 


行 时 间 。 算 法 的 执行 时 间 和 数据 集 的 
6 可 以 看 出 ， 


Heart、Credit Approval、 


维度 与 数据 量 相关 。 从 表 
Australian Credit Approval 


三 个 数据 集 的 数据 量 相对 较 小 ， 因 此 算法 执行 时 间 较 短 ， 而 
Bank Marketing 数据 集 的 数据 量 相 对 较 大 ， 因 此 算法 执行 时 间 


较 长 。 
表 6 EBSCMD 算法 在 各 个 数据 集 上 的 时 间 复 杂 度 统计 
Data set 平均 执行 时 间 /s 
Heart 2.6s 
Credit Approval 1525 


Australian Credit Approval 


Bank Marketing 


点 , 


结束 语 


本 文 总 结 现 有 的 混合 型 数据 聚 类 算法 原理 以 及 各 自 的 优 缺 
提出 了 一 种 基于 信息 焙 的 混合 数据 谱 聚 类 算法 。 该 方法 引 


入 了 一 种 新 的 基于 信息 焙 的 混合 型 数据 的 相似 性 度量 用 于 谱 聚 
类 算法 中 , MET fei BE BR DE S APRIL ECRIRE 


建立 起 分 类 型 数据 
算 方式 相 结合 ， 更 准确 地 计算 了 混合 类 型 数据 的 相似 性 度量 ; 


间 的 关联 ， 并 与 数值 型 数据 的 高 斯 核 函 数 计 


又 把 这 种 相似 性 度量 方式 与 谱 聚 类 算法 相 结 合 ， 使 算法 可 以 处 


H 


然 建立 了 分 类 型 数据 间 的 关联 ， 但 并 没 
关联 以 及 其 本 身 重要 度 对 实验 结果 的 影响 。 在 下 一 步 的 
作 中 ， 将 考虑 摆脱 谱 聚 类 算法 本 身 的 高 斯 核 函数 和 矩阵， 用 信息 
炉 的 方式 处 理 数值 型 数据 ， 建 立 划 


任意 形状 的 数据 ,从 而 提高 


聚 类 准确 度 以 及 算法 的 鲁 棒 性 。 
EBSCMD 算法 能 有 效 地 处 理 混 合 属 性 数据 的 聚 类 问题 。 虽 
考虑 数值 型 数据 间 的 


F 


内 部 的 关联 性 ， 进 一 步 的 对 


混合 属性 数据 进行 高 效 地 聚 类 。 
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